Capítulo 2 Analisis Exploratorio de Datos

2.1 Selección de Usuario

Ya que en la base de datos existen múltiples series de tiempo asociadas a cada usuario en el registro. Para simplificar el análisis y los temas tratados en este trabajo, se seleccionará un usuario de manera aleatoria. Este usuario servirá como base para desarrollar los análisis y conclusiones que se presentarán en las siguientes secciones.

El usuario selccionado al azar tiene user.key 4f7729cf-f0fc-4333-bea7-4ee4aeaaa246

Tabla 2.1: Diccionario de variables de la serie de consumo.
Variable Descripción
user.key Llave de usuario que permite identificar al usuario.
datetime Fecha y hora en que el medidor realizó la lectura.
meter.reading Lectura acumulada del consumo en metros cúbicos.
diff Diferencia de consumo respecto a la medición anterior.

2.2 Rango de las Mediciones

primeros 5 registros.

##                               user.key            datetime meter.reading diff
## 1 4f7729cf-f0fc-4333-bea7-4ee4aeaaa246 19/05/2017 23:53:55        553681    7
## 2 4f7729cf-f0fc-4333-bea7-4ee4aeaaa246 19/05/2017 22:53:55        553674  300
## 3 4f7729cf-f0fc-4333-bea7-4ee4aeaaa246 19/05/2017 09:53:59        553374   56
## 4 4f7729cf-f0fc-4333-bea7-4ee4aeaaa246 19/05/2017 08:53:59        553318  141
## 5 4f7729cf-f0fc-4333-bea7-4ee4aeaaa246 19/05/2017 07:53:59        553177   18

últimos 5 registros

##                                   user.key            datetime meter.reading diff
## 16186 4f7729cf-f0fc-4333-bea7-4ee4aeaaa246 01/01/2015 05:15:06         26322    1
## 16187 4f7729cf-f0fc-4333-bea7-4ee4aeaaa246 01/01/2015 04:15:06         26321    1
## 16188 4f7729cf-f0fc-4333-bea7-4ee4aeaaa246 01/01/2015 03:15:06         26320   23
## 16189 4f7729cf-f0fc-4333-bea7-4ee4aeaaa246 01/01/2015 02:15:06         26297    1
## 16190 4f7729cf-f0fc-4333-bea7-4ee4aeaaa246 01/01/2015 01:15:06         26296    0

El análisis de los datos revela que los registros fueron tomados en intervalos de una hora. El período de recopilación abarca desde el año 2015 hasta 2017 y ya se han calculado la diferencia en los consumos.

2.3 Valores Faltantes

## la base de datos cuenta con  0 valores faltantes

2.4 Formato de las variables

##      user.key      datetime meter.reading          diff 
##   "character"   "character"     "numeric"     "integer"

podemos observar que la variable “datetime” no esta en formato de fecha.

2.5 Estadisticas Descriptivas

Para nuestro análisis descriptivo tendremos en cuenta la variable ‘diff’ ya que representa el consumo realizado en determinada hora por el medidor.

Tabla 2.2: Estadisticas Descriptivas de la variable diff para el usuario seleccionado.
Variable Descripción
media 32.57474
mediana 12.00000
desv. estandar 60.87880
Minimo -322.00000
Maximo 2152.00000
Rango 2474.00000
Coef. Variacion 186.88960
Q1 2.00000
Q2 12.00000
Q3 32.00000

El análisis revela valores de consumo anormalmente elevados en determinadas horas, lo que evidencia la presencia de valores atípicos y una considerable variabilidad en la serie temporal, ademas de valores negativos los cuales se imputaran.

2.6 Valores Negativos

## Número de valores negativos en diff: 2

2.7 Imputar Valores Negativos

## Número de valores negativos después de imputar: 0

Se adicionara el consumo por año

Tabla 2.3: Tabla 2.4: Promedio y Varianza del Consumo por Año
anio promedio_consumo varianza_consumo
2015 36.18 4706.58
2016 28.66 2613.43
2017 33.22 3729.28

2.8 Resumen Analisis Estadistico

Se observa que el consumo de agua presenta una notable variabilidad y numerosos valores atípicos. El rango de consumo oscila entre 0 y 2152 metros cúbicos por hora. Sin embargo, el valor promedio general se encuentra alrededor de los 33 metros cúbicos, lo cual sugiere que, aunque existen registros extremos de consumo, la mayoría de los valores se concentran en niveles mucho más bajos. Esta disparidad podría indicar posibles irregularidades en los datos o un comportamiento inconsistente en el consumo de agua.

2.9 Analisis Grafico

En este apartado analizaremos los diferentes comportamientos de la variable “diff” en el tiempo, haciendo uso de gráfico.

Boxplot

Consumo Anual

se observa una gran presencia de registros atipicos por cada uno de los años registrados.

Tabla 2.5: Valores Atípicos por Año
anio total outliers porcentaje
2015 7059 929 13.16
2016 6799 739 10.87
2017 2332 308 13.21

2.10 Serie de Tiempo

Consumo General

<<<<<<< HEAD

Consumo anual

======= <<<<<<< HEAD

Consumo anual

=======

Consumo anual

>>>>>>> b759291 (Renderizado actualizado del libro) >>>>>>> aa758e2

2.11 Resultados Analisis Grafico

  • Se observa la presencia de consumos elevados, lo cual se ve reflejado en la existencia de múltiples valores atípicos que sobresalen del comportamiento general de la serie.

  • La serie presenta picos de consumo significativamente altos, evidenciando una variabilidad considerable y la presencia de numerosos valores atípicos que podrían estar asociados a eventos específicos o errores de medición.

  • A través de los años se observa que los consumos por mes van disminuyendo.

2.12 Medias Moviles

Dado que los registros de consumo de agua se han tomado en intervalos de una hora, se ha decidido utilizar un parámetro de k=24 para las medias móviles, lo que corresponde a un promedio de 24 horas, es decir, un promedio diario. Esta elección permite suavizar las fluctuaciones horarias y capturar las tendencias generales del consumo de agua a lo largo de cada día. De este modo, se obtiene una representación más clara y coherente del comportamiento del consumo en el tiempo, eliminando los efectos de variaciones momentáneas que podrían ser causadas por fluctuaciones o eventos aislados

<<<<<<< HEAD
======= <<<<<<< HEAD
=======
>>>>>>> b759291 (Renderizado actualizado del libro) >>>>>>> aa758e2

A partir del gráfico de medias móviles (calculadas como promedios diarios utilizando un intervalo de 24 horas), se observa que el comportamiento general de la serie de consumo se mantiene relativamente estable a lo largo del tiempo. Sin embargo, se identifican dos fechas con variaciones atípicas significativas: el 21 de abril de 2015 y el 30 de diciembre de 2016, en las cuales se registran picos inusuales en el consumo.

2.13 Rezagos

Se observa una clara concentración de puntos en los valores bajos de consumo, lo que indica que la mayoría de las observaciones corresponden a registros con bajo consumo horario. Además, la relación entre el consumo actual y su rezago de una hora no presenta un patrón lineal evidente. Esta falta de linealidad sugiere que no es posible realizar predicciones precisas basadas únicamente en el valor rezagado.

2.14 Estacionalidad

Dado que los registros de los medidores se realizaron de forma horaria desde el 1 de enero de 2015 hasta el 19 de mayo de 2017, es necesario definir adecuadamente el periodo sobre el cual se analizará la estacionalidad, con el fin de identificar posibles patrones recurrentes. No se optó por un análisis mensual, ya que el último mes de la serie no está completo. Además, dado el alto nivel de detalle de los datos (una observación por hora), trabajar a nivel diario u horario podría dificultar la visualización de patrones estacionales debido a la gran cantidad de observaciones. Por esta razón, se decidió realizar el análisis de estacionalidad a nivel semanal.

El gráfico de estacionalidad muestra el comportamiento mensual del consumo de agua para los años 2015, 2016 y 2017. Se observa una cierta regularidad en los años 2015 y 2016, lo que indica un patrón estacional moderado. Sin embargo, en 2017 se detecta una fuerte caída en el mes de mayo, lo que rompe el patrón observado en años anteriores y sugiere una posible anomalía o cambio en la dinámica del consumo.

2.15 Autocorrelaciones

Se realizará un análisis de autocorrelación y autocorrelación parcial con el objetivo de evaluar si los valores pasados influyen significativamente en los valores futuros de la serie. Este análisis permitirá identificar la presencia de dependencias temporales que puedan ser útiles para la modelación y predicción del comportamiento del consumo.

acf(serie_semanal, main = "Autocorrelación del Consumo Semanal")

pacf(serie_semanal, main = "Autocorrelación Parcial del Consumo Semanal")

Se realizó el análisis de autocorrelación (ACF) del consumo semanal para evaluar la dependencia temporal entre observaciones. Los resultados muestran una fuerte autocorrelación positiva en los primeros lags, lo que indica que los valores de consumo de una semana están significativamente influenciados por los valores de semanas anteriores. La autocorrelación disminuye de manera progresiva, pero se mantiene significativa hasta aproximadamente 15 semanas, lo que sugiere una estructura persistente en el consumo a lo largo del tiempo.